Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
Search
kohbis
June 13, 2025
Technology
0
760
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
ゆるSRE勉強会 #11 〜AI × SREの知見が聞きたい!〜
https://yuru-sre.connpass.com/event/353153/
kohbis
June 13, 2025
Tweet
Share
More Decks by kohbis
See All by kohbis
潜在的課題探索活動の近況報告 / Exploration of latent challenges
kohbis
2
85
いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC
kohbis
3
870
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
3
3.7k
Custom Prometheus Exporterによる オブザーバビリティ拡張 / Extending observability with Custom Prometheus Exporter
kohbis
1
180
データベースで見る『家族アルバム みてね』の変遷 / The Evolution of Family Album Through the Lens of Databases
kohbis
5
1.4k
SREコミュニティイベントとわたし / Me and SRE community events
kohbis
2
250
サクッと試すNew Relic Kubernetes APM auto-attach / New Relic Kubernetes APM auto-attach
kohbis
0
440
悩ましきインシデント管理 みてねのケース / Incident management is a tough
kohbis
2
810
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow, monorepos get bigger and CI time gets longer
kohbis
5
3.2k
Other Decks in Technology
See All in Technology
明日から真似してOk!NOT A HOTELで実践している入社手続きの自動化
nkajihara
1
860
ソフトウェア開発現代史: 55%が変化に備えていない現実 ─ AI支援型開発時代のReboot Japan #agilejapan
takabow
7
4.5k
SRE視点で振り返るメルカリのアーキテクチャ変遷と普遍的な考え
foostan
2
320
Dev Containers と Skaffold で実現する クラウドネイティブ開発環境 ローカルのみという制約に挑む / Cloud-Native Development with Dev Containers and Skaffold: Tackling the Local-Only Constraint
bitkey
PRO
0
100
AIを前提に、業務を”再構築”せよ IVRyの9ヶ月にわたる挑戦と未来の働き方 (BTCONJP2025)
yueda256
1
790
AIエージェントによるエンタープライズ向けスライド検索!
shibuiwilliam
4
600
AS59105におけるFreeBSD EtherIPの運用と課題
x86taka
0
110
今、MySQLのバックアップを作り直すとしたら何がどう良いのかを考える旅
yoku0825
2
470
JJUG CCC 2025 Fall バッチ性能!!劇的ビフォーアフター
hayashiyuu1
1
370
DDD x Microservice Architecture : Findy Architecture Conf 2025
syobochim
7
2.2k
【M3】攻めのセキュリティの実践!プロアクティブなセキュリティ対策の実践事例
axelmizu
0
170
[mercari GEARS 2025] なぜメルカリはノーコードを選ばなかったのか? 社内問い合わせ工数を60%削減したLLM活用の裏側
mercari
PRO
0
140
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
658
61k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
980
We Have a Design System, Now What?
morganepeng
54
7.9k
Balancing Empowerment & Direction
lara
5
760
Statistics for Hackers
jakevdp
799
220k
Faster Mobile Websites
deanohume
310
31k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Context Engineering - Making Every Token Count
addyosmani
9
400
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Music & Morning Musume
bryan
46
7k
Transcript
Grafana MCP serverで なんかし隊 @kohbis ゆるSRE勉強会 #11 2025/06/13
お話しすること • オブザーバビリティ with AI • オブザーバビリティ with MCP server
• Grafana MCP server
オブザーバビリティ with AI(1/2) 異常検出( Anomaly Detection) • 機械学習と統計により「通常と異なる推移」のメトリクスを検出 • 機械学習とパターン分析により「通常と異なる形式や値」のログを検出
自然言語クエリ生成( Natural Language Query Generation) • サービスごとに(やたらクセがある)クエリを自動生成 自然言語要約( Natural Language Summarization) • ログやメトリクスまたはそれらのダッシュボードを自動要約 etc.
オブザーバビリティ with AI(2/2) AI 周り「そのもの」のオブザーバビリティ • リソース使用率 / モデルの出力評価 リクエスト数
/ レイテンシー / セキュリティ etc. • 各サービスやツールの対応 ◦ Monitoring the performance of Amazon Bedrock ◦ Cloud Monitoring metrics for Vertex AI ◦ Datadog LLM Observability ◦ OpenTelemetry for Generative AI
オブザーバビリティ with MCP Server うれしいこと • サービスや担当者の習熟度に依存せず、誰でも再現性のある調査が可能に • エージェントとの連携により、収集したデータを開発のワークフローに統合 •
(サービス、ツール連携、認証認可、出力整形をMCP Serverが一括して担える) 各サービスの対応 • AWS MCP Servers • Datadog MCP Server • Sentry MCP Server
Grafana MCP Server Grafana • “The open-source platform for monitoring
and observability” • 複数のデータソースをクエリ、可視化、アラート設定、検索できる MCP Serverでできること(一部) • Dashboardの取得、作成、更新、パネルデータの取得 • Datasourceへのクエリ ◦ Prometheus(Metrics)、Loki(Log)をサポート ◦ Tempo(Trace)やPyroscope(Profile)は未対応 • Alertingの取得(更新は未対応) ※ ほかできることはREADME参照。PR#156 まで記載されていたものはIssueが起票されているのでそのうち対応されそう
なんかしたい 🤔 ゆるSREのLTに応募したものの • ただGrafanaダッシュボードを一覧するだけは楽しくない • PromQL(Prometheus)やLogQL(Loki)を書いてくれるのはうれしいがなんかパッ としない • なんかトラシューっぽいことができたらよさそう?
「おうちK8sクラスタがあるけど、そんないい感じの変化はないよな〜」
いい感じだった
調査開始 Copilot Chat (Claud Sonnet 4) on VSCode + Grafana
MCP server
ダッシュボード一覧 最初に利用するダッシュボードを選 択する 今回は準備しておいたHome Clusterというダッシュボードを使う
ダッシュボード詳細
なげぇ😇
ダッシュボード詳細
直近7日間の傾向
メモリ/CPU増加の原因を調査させる 👈 めっちゃ頑張ったCopilotくん • ノードごとのPod数変化に着目し、特 定の時間から該当ノードで Pod数 が増えている ことに気づく •
この挙動から「システム全体のロー リングアップデート」 が行われた可 能性を提示
正解👏
リソース使用率が増えた時間帯にやっていたこと K8sクラスタのアップグレード • リソース使用率が減少したノード ◦ アップグレードするため 稼働しているPodを退避した • リソース使用率が増加したノード ◦
👆の退避された Podが 稼働するように なった Grafana MCP serverを活用した 自然言語のみでトラブルシューティング に成功 🎉
ところで
ずっと異なる発生時刻を表示し続けていた • 発生時刻は2025年6月6日1時頃 ◦ Grafana MCP serverで取得した メトリクスも該当時間のUNIX time ◦
調査でクエリするときも 👆のUNIX timeを使用している • Copilot Chatの回答だけ 2025年6月7日15時頃と表示される 何らかの理由で誤ったコンテキストを 保持し続けてしまった? なにもわからないので詳しい方教えてください🙇
さいごに
いろいろできそう • エディタ(VSCode)でMCP serverを利用して コード修正まで Agentにお任せ ◦ 例)今回特定した問題の修正 ▪ リスケジューリング設定
▪ リソース調整 • ダッシュボード要約によるモニタリング業務の効率化 • アラート閾値に達しない範囲、中長期での傾向変化
ありがとうございました